深势科技孙伟杰:AI4S就是科学研究领域的GPT
The following article is from 清流资本 Author 新一轮AI来了
孙伟杰,深势科技创始人&CEO,北大11级元培学院校友,在校期间曾担任北京大学元培学院学生会主席,2021年入选福布斯30 Under 30。
于2018年11月创立北京深势科技有限公司,并自2022年起担任北京科学智能研究院战略发展顾问,中国管理科学研究院商学院“专精特新”企业培育专家库特聘专家。在此之前,他曾任唯猎资本投资经理。
编者按
AIGC爆火出圈引发了一系列关于新一轮AI技术的讨论,有人兴奋于底层大模型技术迭代带来的生产力大幅提升,有人担心会因为AIGC强大的生成能力失去工作,甚至,还有关于人类未来是否会被AI替代的恐慌。清流资本认为,新AI技术的出现是令人兴奋的,但是,技术真正落地到实际场景也需要时间,与其对未知的未来过度反应,不如冷静地坐下来看看,新一轮AI技术到底给人类带来了什么。
清流资本推出【新一轮AI来了】对谈栏目,由清流资本创始合伙人王梦秋1v1对谈清流投资的科技企业创始人,探讨新一轮AI技术的进展、时间节奏、可能的应用场景,以及,随着我们进入新AI时代,与AI共存的人类会是什么样的?
/// 本期对谈嘉宾:
深势科技创始人兼CEO孙伟杰
王梦秋
清流资本
创始合伙人
孙伟杰
深势科技
创始人兼CEO
嘉宾简介:
孙伟杰是深势科技创始人兼CEO,北京科学智能研究院战略发展顾问,中国管理科学研究院商学院“专精特新”企业培育专家库特聘专家。孙伟杰拥有北京大学法学及管理学学位,在创立深势科技前曾作为天使投资人活跃在科技、教育、企业服务等领域;同时,孙伟杰曾任北京大数据研究院分子动力学计算中心常务副主任,在分子动力学模拟、人工智能等领域有丰富的研究经验。2021年,孙伟杰入选福布斯中国U30精英榜并当选封面人物,2022年,入选福布斯亚洲U30精英榜并当选封面人物。
深势科技是 AI for Science 科学研究范式的引领者和践行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。深势科技的科研技术团队由中国科学院院士领衔,汇集了超百名数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。
如果说 GPT 是通识的文科生
AI4S就是硬核的理科生
王梦秋:Hello,大家好,我是梦秋,这里是清流资本的播客节目新一轮 AI 来了,我将在这里对谈清流投资的科技企业创始人,探讨新一轮 AI 技术对我们的工作、业务和人才的影响。新一轮 AI 技术的进展会如何 reshape 我们未来的工作流程和人才模型,以及与 AI 共存的人类未来会是什么样的?今天我对谈的嘉宾是深势科技的 CEO 孙伟杰。
孙伟杰:大家好,我是深势科技的孙伟杰。深势科技是 AI for Science (简称 AI4S )科学研究范式的先行者,我们致力于运用人工智能和分子模拟算法,结合先进计算手段去求解重要的科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程打造新一代微尺度工业设计和仿真平台。
王梦秋:我其实核心就是想了解一下这一轮新的 AI 对咱们的影响是什么?咱们其实本来做的是 AI for Science 嘛。那你要不多说几句 AI for Science ?就是用一般听众听得懂的东西,以及咱们深势科技在 AI for science 这个领域中的一个位置。
孙伟杰:AI for Science 简单来说就是我们用 AI 去学习一系列事物底层运作的科学规律。嗯,你看咱们现在特别流行的 GPT ,其实本质上是学习的我们社会生活中产生的这些语言、对话、图片这些信息,从信息里面抽取出可能背后的一些知识。
如果说 GPT 是一个通识的文科生, AI for Science 就是一个硬核的理科生,它可以求解一系列复杂的物理方程,可以去推演在微观层面电子、原子分子的运动和变化,来帮助我们做药物研发、材料研发,也可以去计算复杂的空气动力学、流体力学,来帮助我们做更好的飞行器、火箭的设计。所以说,AI for Science 可以说是我们研究我们的客观世界一个基础的 AI 的预训练模型。
王梦秋:咱们深势科技在这一轮所谓的生成式 AI 或者说 GPT 大模型出来之前,其实我们做的事情就是用已经在用类似的一些技术也好,算法也好,模型也好,去做我们要解决的 science 领域的问题了。
孙伟杰:对的。虽然说 GPT 这一波生成式 AI 是近一两年才火热起来,但是其实底层的技术早就已经比较成熟和标准化了。其实咱们的第一个最早的应用是用 AI 去求解像量子力学方程为代表的物理方程,那进一步如果 AI 能够求解像量子力学方程的话,我们就可以理性的去预测微观层面电子、原子、分子的运动和变化,大家都知道,所有的物质都是由这些基本的微观粒子构成的,如果我们能够在微观层面算清楚他们的运动和变化的话,嗯,我们就能进一步的推演出所有我们关心的这些物质。
王梦秋:那我们能够预测底层的分子微观世界发生的这些规律,它会对我们的宏观世界产生什么影响?比方说它能够用在什么样的领域?然后做什么呢?
孙伟杰:比如说我们的手机屏幕,它是由微观层面的原子和分子整齐的排列起来的,如果我们能够把微观层面它的原子之间的相互作用都算清楚的话,那比如说这个屏幕的透光率,它的硬度、它的韧性,包括我们 OLED 材料它的发光的性能,其实就都可以通过微观的这些物理方程算出来。
那过去的问题在于,我们虽然知道这些物理方程,但是我们靠传统的计算方法,算不了,算的太慢了,没有办法真正的指导我们的工业研发。现在我们用 AI 去学习这些物理模型,然后去加速它的计算,我们如果能够计算清楚它的所有的性质的话,那就将会大幅的加速我们药物材料、能源、化工等领域的研发的进程。
王梦秋:所以新能源材料,比如说锂电行业的,或者说半导体行业的材料研发底层其实都可以用我们这套计算的科学平台是吧?
孙伟杰:对的,比如说锂电池的材料,基本的组成材料是它的正极材料、负极材料,还有中间的电解质,那比如说我们以电解质为例,电解质其实它一方面锂离子要在电解质中来回的运动,那它的对锂离子的这种运动和扩散的能力要很强。同时在高温撞击的条件下,它还要保持非常高的稳定性,这样的话锂电池才能安全,所以说它的热稳定性,它的相变化稳定性,它的耐高压这样的能力都要很强。
过去可能都是我们要靠大量的实验试错来把这个材料研发出来。现在在做实验之前,先用我们的模型先去快速的计算,之后仅做非常少量的实验,就可以发现一个有效的新的材料配方了,来提升锂电池的某一方面性能,比如说提升它的能量密度、提升它的充放电的性能、提升它的安全性或者降低它的成本等各个方面。
ChatGPT的产品形态启动了正向飞轮
王梦秋:明白,所以本身咱们所做的科学平计算平台本身是在加速我们人类或者说工业上各种各样研发的迭代速度的。(对的),你觉得这一波生成式 AI 能够让用户可感知他在底层发生了什么变化?
孙伟杰:我觉得最核心的还是产品。就比如说其实 AI for Science 在过去的两年里面也发生了一些比较大的变化,尤其是产生了像 Alphafold 蛋白质折叠的这样工具的可感知的产品。当然 Alphafold 是它的模型本身就是个产品,它的技术突破和产品的打造是同时发生的,所以说让大家能够觉得技术突破是带来了很重要的影响。但是 ChatGPT 不太一样,因为 ChatGPT 它所依赖的底层的所有的技术在基本上在 GPT 3 里面就都具备了,然后它所依靠的这个。RLHF( reinforce learning from human feedback)这样的技术其实在 Instruct GPT 里面其实也已经成熟了,但是最核心的突破在于它基于陪聊的这样的一个定位,打造了一个人畜无害的,大家愿意去调戏他的这样的一个产品。能迅速的把用户能够吸引进来。
王梦秋:就是迅速能够用一个比较简单的方式, demo 现在模型可以做到什么事儿?
孙伟杰:对,后面发生的一切其实本质上是这样的一个产品形态启动了它的正向飞轮,它的用户增长,然后工程体系完善以及模型的进一步的 feedback ,这样形成了一个正飞轮之后,那很快的这个后续的用户就这个增长非常非常快。所以说使他真正的成为了全球第一个有过亿用户来帮他完善和提升模型能力的这样的一个产品,我觉得这个还是 ChatGPT 最关键的。当然像AIGC,比如说像stable diffusion 这种领域的发展的话,其实我觉得两方面也都是存在。一方面有像 diffusion model 这样的新的技术,但另一方面其实也还是这个对于图片生成的这样好玩的产品,会有很多用户愿意去玩。所以说我觉得这几个刚才举的这三个例子里面,其实技术的推动和产品的创新,它都有力量的驱动,但是可能他们的配比稍微不太一样,ChatGPT 我觉得更多的是产品驱动。
王梦秋:所以咱们深势做的这些工具也好,计算平台也好,本质上我们的产业链位置其实是类似于像 Alphafold 的这样的东西,对吗?
孙伟杰:嗯,对。
王梦秋:咱们回过头来讲,从这一轮生成式AI,包括大模型的这么一下子爆发,你觉得咱们就是对咱们深势的影响,或者说咱们可以借鉴的地方是哪些?
孙伟杰:第一个就这个大模型本身,它可以运用到很多我们科学研究的领域的应用里来。比如说最简单的这个 GPT 模型,它有强大的信息的处理和检索,以及文本的生成能力。那其实对于科学研究而言,所有的文献综述、文献的检索和这个我们一些基础的文本的生成,那都可以让 GPT 来帮忙大幅的提升我们对过往的科学研究的整理和检索的效率。
其次 GPT 它是一个语言的预训练模型,其实在科学问题上也有很多是基于语言的,比如说蛋白质的序列,我们基因的序列它本质上也是语言,对于像蛋白质基因的序列的处理的能力,以及比如说 RNA 它对应的生物的表形,蛋白质对应的它的生理功能,这些方面的性质预测能力都会比以前有大幅的提升。
除了 GPT 这样的预训练模型,其实 AI for Science 领域也有一系列的预训练模型,比如说刚才我们提到的 Alphafold ,它是这个对结构预测的预训练模型,那像我们的 DPA 、我们的 Uni-mol ,是对于材料和分子性质预测的这些预先模型。
AI4S已经进入预训练模型时代
孙伟杰:我们现在可以非常肯定地说就是 AI for Science 也已经进入到预训练模型时代了,那 AI for Science 所处的行业阶段差不多相当于 LLM 在 2018 年左右的时候这样的一个阶段。因为我们可以发现我们 AI for Science 的预训练模型,它的能力要远远超过我们任何一个细分的科学问题上的小模型,那说明整个领域的发展很快就将会变成由预训练模型来驱动的。所以说这个也是给我们一个非常重要的启示,就是我们现在要 all in DPA 。
王梦秋:DPA 是什么?来介绍一下。
孙伟杰:其实我们都知道,我们世界万物就是由 100 多种化学元素摆成不同的微观的结构,就形成了不同的物质,有了不同的性质,对吧?我们都知道有一个关键的一个常识叫做结构决定性质。那我们如果把世间万物所有的微观的结构,都训练到一个统一的模型里面来的话,那是不是我们这个模型就能预测世间万物所有的物质的性质了?甚至说可以基于我们的需求,我们去生成我们想要的物质,所以说这个叫可能叫 AIGM ,哈哈哈!generate materials 或者 generate matters 。那这样的话这样的一个模型可以说就是上帝造物主的手了。
王梦秋:那我要输入给这个模型的 prompt 应该长什么样呢?
孙伟杰:比如说我们要生成一个镁铝合金,我想做一个轻型的合金材料,我想要它的硬度是怎样的?我想要它的这个塑形是怎样的?那可能这个模型就生成出来一个这个镁 8 铝 16 这样的一个这个配比,和一个它们之间原子怎样排列的,这样一个微观结构,就是符合你的性对性质的需求的。
王梦秋:那这个后续还是需要做实验,对吧?
孙伟杰:嗯,我们生成出来的这些肯定是需要实验来验证,但是的话肯定就比相比我们原来盲目试错的这种方式就会效率提高很多。我们做个类比的话,过去可能是我们做 100 万次实验,然后发现一个还不错的,那现在我们从广大的化学空间里面直接搜索出来一个可能最合适的,可能前 10 名或者前 20 名,我们拿去做实验验证一下,我们就知道这个东西靠不靠谱。
王梦秋:嗯,所以相当于这个大模型也好。还是说我们更广义地说,生成式 AI 技术这一波,其实对咱们也是有不少启发的。
孙伟杰:对,是有很大的启发。
王梦秋:咱们需要什么样的人才做咱们这个事情?
孙伟杰:第一是这个基本功还是要比较扎实,无论是对于科学的素养,还是对于像 AI 或者工程方面的基本功,至少要有一方面是要非常的扎实,然后同时又对其他的两个方面有比较强的学习和认知能力。
王梦秋:那关于这种人才的竞争现在不应该更激烈了吗?因为各种 AI 创业都出来了。
孙伟杰:对,但是往往具备这样素质的人才,他的品位也比较高,也更容易选择咱们这样的事情。哈哈哈。
未来人类能力模型最核心的是突破边界
王梦秋:顺着人才这个角度讲,新一轮的这个 AI 技术带来的很多生成式工具,其实对于未来我们所有公司的工作流程都是一个提效的过程,对吧?包括咱们自己。但是对于人类所有的公司都有提效流程之后的整个人类社会,你觉得人才模型会发生什么样的变化?
孙伟杰:对,这个确实会发生很大的变化。其实我觉得不光是 AI ,从我们人类的历史来看,我们任何新工具的出现,其实对于我们人类的能力模型的改变都是很大的。我们解放出来的这些智慧都可以去干别的事情。AI呢,我觉得最后他可以把人类很多这个重复性的脑力劳动都可以替代掉。
未来大家的精力被解放之后,其实所有的最核心的智慧都应该投入到突破人类现有边界的这些事情上去。比如说更新的艺术创造、更多的科学发现、科学探索。当然评判我们的这个是否足够新,是否突破了人类的认知边界的核心的依据就是 AI 。如果说我们发现了一个新东西,但是一问 AI 已经知道了,那其实这个不是一个真正突破边界的。
突破边界有两个方向,一个是有很强的新的问题的定义能力,那对于我们这些重复性的工程工作,我们可能只要能提出够好的问题,让 AI 去帮助我们完成就可以了,要持续地能问出好问题。第二就是创造力,比如说我们未来可能都会去做科学研究和艺术的创作,这种创造力可能一是来自于我们对于未知世界的好奇心,第二是可能来自于我们对整个人类社会的人文关怀。第三我觉得永远不可替代的就是领导力。
王梦秋:咱们说回咱们现在的教育模型,不管是国内国外的教育模型,你如果要有创造力,你要能够 create something,你首先还是得有一个底层的丰富知识丰富度。
对,但是也有人会觉得说是不是未来有了 ChatGPT 或者大模型,因为它理论上讲就学习了全人类所有已经共同的知识,它帮你记住了。对,虽然他现在还会胡说八道,但是可能总有一天大家都相信这个技术可以迭代到不要胡说八道的状态,比如说你写 alignment 什么的,就人还需不需要有知识才会具有创造力?就这个问题你怎么看?
孙伟杰:我觉得知识是人类通向智慧的养料,但是人类不需要记住大量的知识,就是我们一定要通过大量的学习素材,才能从中学习到背后的逻辑和智慧。我大学是学政治经济哲学的,到现在可能我当时读的那么多经典的文本,那些跟历史上哲学家那些伟大的对话,可能我不记得几句,但是我学了所有的那些哲学的知识,更关键的是我跟那些伟大的头脑有了一次对话,我知道他们整个思考事情的逻辑,然后他们的最核心的智慧是什么。我觉得这个才是最核心的。而知识本身可能当我掌握了一定的智慧和逻辑之后,我随时可以拿出来重新去查,所以说这个是未来可能 AI 和人类之间的一个更好的界限。
整个的教育体系可能会越来越倾向于 liberal arts ,如果说 liberal arts 翻译成一个中文,可能比较好的还是通识或者博雅教育。不为了某一项工作技能来培养学生。我觉得未来的教育会越来越变成 liberal arts ,或者说所谓的这种博雅教育。工具和工程学本身会越来越多的被 AI 和自动化的手段来代替,我们更多的应该去思考事物最底层的这些关键问题,它的基本的逻辑。
王梦秋:这就是说即便是学基础学科,那可能更多的也要引导 young generation 去 thinking 背后的原因,对吧?(对对对),他要去思考,而不是记住。但现在我们的教育太强调记住这件事情了。
孙伟杰:对,所以说解决工程问题的最好的方式就是我们定义好问题,然后不断的给 AI 能提出问题,让他来帮我们解决突破边界的问题。
最后,我觉得机器永远无法替代的就是领导力,就是如何团结更多的人,如何让更多人来聚焦到同一个重要的问题,能解决一些靠个人无法解决的重要问题。
所以说我觉得未来的能力模型这三方面会最重要:一是持续提出好问题的能力,即工程能力;二是创造力,来自于好奇和人文关怀;三是领导力。
王梦秋:如果是未来需要的是能够跟 AI 共处,或者甚至是能够驾驭 AI 的人,那现在的教育体系应该做什么样的变化?
孙伟杰:这个问题其实是我相对来说思考最多的一个问题,因为我研究生是学教育学的。其实我和林峰,包括北大的很多老师都对这个问题有讨论很多。因为 AI 的变化它肯定会带来结构性的就业的素质的改变。但是这个变化相对来说在一定周期内是有一定的渐进性的。所以说从最长期来看,终局上来看的话,肯定是所有的人在基础教育阶段接受的一定是 liberal arts 的培养,liberal arts 的学科的限制会越来越弱,会越来越问题导向。这样的教育体系在比较国内比较好的顶尖的高校里面,其实也是越来越流行了。大家还是有专业的限制,有专业的划分,但是对于其他专业的课程的学习和这个涉猎,已经成为培养里面必须要求的一个素质了。
AI4S引领了一场科学革命
王梦秋:明白。对,咱们刚才说到咱们 AI for Science,其实是就整体上我们能够给这个整个 industry 也好,还是说跟整个 science 领域也好,创造的价值,其实我们会加速和预测,对吧?那你也预测一下 AI 技术本身这个迭代的速度,未来会是什么样的?因为我们在过去的几个月已经看到它的,嗯,爆发式的在 publish 很多新的东西,但是我也觉得说有些新的东西可能其实是以前积累的,只是现在这个 moment 说出来大家才会理解这是一个什么东西。
就像咱们 AI for Science,其实咱们也不是今天第一天做这个事,之前咱们在就是大学和研究领域,其实这个概念也提出了有一段时间,但是可能这个 moment 去讲,大家才能够更多的理解这件事情是什么东西。(对对对对)。所以,本身从 AI 技术的迭代,不管是生成是 AI 还是咱们AI for Science,你觉得后面会是一个什么样的速度去迭代呢?对。
孙伟杰:我先说第一个问题,就是 AI for Science 对于科学研究的影响,其实它最后就加速两个事情,一个是科学的原始创新,我们发现更多新科学的速度会非常非常的快。第二就是我们从创新到落地的中间的链条将会极大的被缩短。就像我们现在有了 AI 的预训练模型之后,现在的创业公司可能就是两三个人就能做一个几千万用户、有上亿营收的一家公司了,因为上面的整个应用会变得非常的简单、非常的接口化。
AI for Science 也会给科学研究领域带来这样的改变,未来我们可能会看到很多这三五个人就可以支撑一个新的新材料的创业公司了。因为后面的材料研发被 AI for Science 解决了,然后材料的制备和材料的测试表征可能也有相应的自动化和 cro 来完成。其实现在生物医药领域正在变成这样的情况,一个biotech 可能 10 来个人就上市了。
对于整个的未来的 AI 的演进速度,我觉得是以周为单位的速度来进展,但是这样的进展是不均衡的。在比较通用的,然后用户更快的能提供反馈的这些领域,可能甚至说产品会以天为基来变化,但是在相对来说它的领域门槛更高,然后更深奥的这些领域里面,相对来说它的迭代速度会慢一些。
但是我觉得这个当前的这一波产品和技术带来的热潮,可能会在未来的 1 年到 2 年,它逐渐的会变成一个比较平缓,大家可能逐渐的都广泛的使用和适应了这样的一种技术的演进。但是可能像 AI for Science 这样的领域,因为它本身就门槛更高,这样的变化,我觉得可能是在两年或者三年之后才会出现一个非常大的一个起点性的事件。
王梦秋:还是结合咱们自己的业务来讲。你觉得后头像咱们这个本身的技术迭代会是一个什么周期?咱们一般都是以摩尔定律用来做benchmark,你像现在大家会说生成式 AI 本身大模型自己的迭代是以超摩尔定律的速度在往前走。你觉得未来会是这样吗?就是咱们自己的 AI for Science ,本身我们的计算平台迭代,我们刚才说的万物计算就是 DPA 这个的迭代,你觉得也会是这样一个速度?
孙伟杰:AI for Science 从我们内部可感知的这样的迭代速度确实是比我们原本预想的更快,因为我们本来预想的可能是我们每半年发布一个新的模型,但是实际上在我们进行每一版模型的开发的过程中,我们发现不断的会有新的,比如说像 AI 的技术,新的计算的技术,包括新的算力来加速我们整个开发的进程。所以说实际上我们可能每一两个月就可以完成一个新的模型版本的开发。从内部可感知的角度上来讲,AI for Science 至少也是以月为单位在发生着巨大的改变。那可能我们每一版新的模型,它的模型能力都照原来是double、 double 的这样的去变化。
可能不会所有人都 follow 我们 AI for science 领域这些非常深入的进展,那对于用户可感知的角度,我觉得确实在未来的一两年之内就会让大家有非常可感的这样的产品的形态的变化。
王梦秋:我其实觉得 ChatGPT 给你们还有一个借鉴,就是产品对于用户的可感知,当然咱们这样的 AI for Science 当然不用所有的普通用户都能理解,但是其实是面向业内能够把这个故事讲清楚,就我们是干什么的,对吧?这个其实也是一个节点,就说白了我们的产品得让大家一听就知道他是干什么的。
孙伟杰:我觉得 GPT 其实给了我们两个重要的启示,一个是这个产品的可辨识度,这个我们其实更像是一个在科学研究领域的 GPT,就是它上面可以基于我们的预训练模型,开发出各种各样的垂直行业的应用,并且基于我们的模型可以生成出我们下游关心的这些想要的这些物质。
第二个比较大的启示是交互的变革,就是产品的交互形态以后可能都会以这种对话的方式来进行,那可能对于我们的未来的产品形态,如果能他跟人机器直接对话,让机器来帮他完成的,那其实在产品的设计上会更加的简洁。这样的这个产品的形态可能也会把科学研究和工业软件的产品的设计能拍的更扁,这个可能也是我们之后可以去借鉴。
王梦秋:AI这一轮其实对于咱们 AI for Science,让更多的人能够了解到我们的工作,其实也是一个很好的契机。当然现在咱们说咱们是 AI for Science 领域的 ChatGPT ,可能有点蹭热度之嫌,但其实我们真的是已经很早以前就在做这件事情。所以这一轮我觉得对于咱深势科技来说确实是一个非常好的利好。
来源:清流资本
—往期推荐—
推荐关注